Анализ и оценка результатов A/B тестов
Предлагаем упростить процесс анализа результатов сплит теста, до поиска ответов на 3 главных вопроса:

Почему я могу доверять полученным результатам?
Доверие к результатам сплит тестирования стоит на 2-х китах: репрезентативной выборке и статистической значимости.

Репрезентативность - это способность выборки содержать все важные для исследования характеристики свойственные генеральной совокупности.

Рассмотрим на понятном примере:




Если целая пицца – это генеральная совокупность (относительно которой мы строим свои гипотезы), то кусочек пиццы – это тестовая выборка.

При условии, что ингредиенты равномерно распределены по поверхности, мы согласимся с утверждением: “Достаточно одного кусочка пиццы, чтобы оценить всю пиццу”.

В нашей системе, при проведении сплит-теста, репрезентативность выборки обеспечивается за счёт случайного отбора респондентов в группы. Поскольку каждый пользователь имеет равные шансы попасть в тестовую выборку — она превращается в уменьшенную копию генеральной совокупности, сохраняя такую же пропорцию пользователей с разными характеристиками.

Теперь, когда выборка автоматически ассоциируется с пиццей, вернёмся к знакомству со вторым китом, который валидирует наши результаты на достоверность — статистическая значимость.

Статистическая значимость - определяет, насколько вероятно, что разница, которую показал тест между вариантом А и В, действительно существует.

Действительно важно проверять результаты теста на статистическую значимость, это позволит принимать дальнейшие решения только на основе достоверных данных.
Оптимальный уровень значимости (доверительной вероятности) для результатов А/B теста равен 95%. В таком случае, вероятность ошибки составляет оставшиеся 5%.

Какой вариант побеждает в тесте?

Давайте экспериментировать с расчетами на реальных кейсах!

Кейс #1

Чтобы приступить к анализу результатов, воспользуйтесь одним из предложенных онлайн калькуляторов для оценки стат значимости:

https://www.websiteplanet.com/uk/webtools/abtest-calculator/
https://mindbox.ru/ab-test-calculator/
http://hungrysites.ru/ab

Разберем основные составляющие стандартного калькулятора:




  1. Количество вариантов тестирования (для нас это количество subjects or templates принимающих участие в тесте)
  2. Под количеством конверсий подразумевается количество целевых действий (Opens or Clicks)
  3. Размер выборки - это количество отправленных писем
  4. Уровень достоверности ≥ 95%
Вывод:
В данном случае, сплит нельзя считать состоявшимся - количество целевых действий недостаточное для принятия решений.
Необходимо оценить период, за который уже действует данный тест. Рекомендуется проводить тест не менее 14 дней.

Кейс #2

Показательный случай, когда есть subject с наибольшей эффективностью, как по открытиям, так и по кликам.

Вывод:
После проверки достоверности результатов, мы можем принять решение, что subject А является самым эффективным.

Кейс #3

Полученные результаты могут показаться достаточно запутанными, но если мы повторим последовательно алгоритм проверки результатов - принять решение будет просто.
Вывод:
На первый взгляд, есть видимое преимущество по открытиям у template C. Но для смены шаблонов целевой метрикой, как правило, является CTOR, который для template C достаточно низкий.
Продолжив эту цепочку, давайте оценим является ли значимой разница в CTOR между темплейтами:
Причём тут стат значимость?
По результатам оценки достоверности: template A и template B по CTOR лучше, чем template C. Но фактически мы и ранее это понимали, более ценно то, что эффективность template A и template B между собой не отличаются.
В результате, мы бы рекомендовали оставить template A и template B, как равно эффективные. При этом детальнее изучить аномалию template C - по какой причине пользователи активно открывают письма, но далее не переходят. Возможно есть проблема с кнопкой/ссылкой и устранив неполадки, есть перспектива получить не только высокий показатель открытий, но и переходов.
В заключение добавим, что после оценки метрик выбранных в рамках эксперимента - оцените глобальные показатели на продукте. Эффект от изменений может затронуть более кастомные показатели.

Удачи!
Статью написала:
Vlada Kholod
Data analyst at Sendios